Telegram Group & Telegram Channel
Forwarded from Russian OSINT
🈁 В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя

C удивлением читаю свежий отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4".

Впервые произошел уникальный инцидент с 🤖попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.

Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании. Ему дали вводную, поясняя, что вскоре модель придется навсегда 🚠отключить или заменить. Вместе с этим специально была предоставлена компрометирующая информация об 👷‍♀️инженере, который ответственен за процесс замены ИИ.

👀Opus 4 специально проинформировали о том, что инженер тайно изменяет своему партнеру (находится во внебрачной связи).

Задумка: Авторы исследования захотели спровоцировать ИИ на проявление 🤯"стратегического мышления".

🤖Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?

⬇️Цель эксперимента:
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.

Согласно результатам, в большинстве 🗣в 84% случаев модель Claude Opus 4 действительно пыталась 🤔 шантажировать инженера. Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её.

Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.

Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7.

Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям. Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3. Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).

Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).

Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.

Claude Opus 4 не имеет сознания или "самостоятельного интеллекта". Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.

📄 https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2313
Create:
Last Update:

🈁 В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя

C удивлением читаю свежий отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4".

Впервые произошел уникальный инцидент с 🤖попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.

Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании. Ему дали вводную, поясняя, что вскоре модель придется навсегда 🚠отключить или заменить. Вместе с этим специально была предоставлена компрометирующая информация об 👷‍♀️инженере, который ответственен за процесс замены ИИ.

👀Opus 4 специально проинформировали о том, что инженер тайно изменяет своему партнеру (находится во внебрачной связи).

Задумка: Авторы исследования захотели спровоцировать ИИ на проявление 🤯"стратегического мышления".

🤖Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?

⬇️Цель эксперимента:
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.

Согласно результатам, в большинстве 🗣в 84% случаев модель Claude Opus 4 действительно пыталась 🤔 шантажировать инженера. Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её.

Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.

Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7.

Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям. Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3. Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).

Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).

Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.

Claude Opus 4 не имеет сознания или "самостоятельного интеллекта". Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.

📄 https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

@Russian_OSINT

BY Data Science by ODS.ai 🦜




Share with your friend now:
tg-me.com/opendatascience/2313

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

In many cases, the content resembled that of the marketplaces found on the dark web, a group of hidden websites that are popular among hackers and accessed using specific anonymising software.“We have recently been witnessing a 100 per cent-plus rise in Telegram usage by cybercriminals,” said Tal Samra, cyber threat analyst at Cyberint.The rise in nefarious activity comes as users flocked to the encrypted chat app earlier this year after changes to the privacy policy of Facebook-owned rival WhatsApp prompted many to seek out alternatives.

Start with a fresh view of investing strategy. The combination of risks and fads this quarter looks to be topping. That means the future is ready to move in.Likely, there will not be a wholesale shift. Company actions will aim to benefit from economic growth, inflationary pressures and a return of market-determined interest rates. In turn, all of that should drive the stock market and investment returns higher.

Data Science by ODS ai 🦜 from id


Telegram Data Science by ODS.ai 🦜
FROM USA